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Resume 

Dans cet article, nous proposons une methode automatique de construc- 
tion de ressources lexico-semantiques multilingues pour naviguer par le 
sens a travers Tinformation contenue dans des bases textuelles de langues 
differentes. Cette methode s'appuie sur un modele mathematique de re- 
presentation du sens appele Atlas semantiques, qui consiste a exploiter 
des relations linguistiques entre des unites lexicales pour construire des 
graphes, projetes dans un espace semantique qui constitue une carte de- 
notant les tendances de sens d'un mot considere. A partir de I'analyse 
morpho-syntaxique d'un corpus, et en utilisant les relations syntaxiques 
entre les items du corpus, il est possible de constituer une ressource lexico- 
semantique qui decrit I'ensemble des sens attestes dans le corpus pour tout 
le lexique qui y est represente, grcice aux contextes syntaxiques typiques 
des entrees decrites. II est egalement possible de conserver un lien syste- 
matique entre les tendances de sens representees et les enonces qui ont 
servi a les construire, et done de relier toutes les instances d'un mot dans 
un sens donne pour naviguer entre elles. II est egalement possible, en uti- 
lisant des corpus de langues differentes, de construire des ressources qui 
se correspondent entre langues, et de naviguer entre les textes grace a la 
traduction, meme partielle, des contextes syntaxiques. 
Mots-clefs : ressource lexico-semantique, representation du sens, navi- 
gation semantique, gestion d'information multilingue, corpus multilingue, 
navigation interlangue. 



Abstract 

In this article, we propose an automatic process to build multi-lingual 
lexico-semantic resources. The goal of these resources is to browse seman- 
tically textual information contained in texts of different languages. This 
method uses a mathematical model called Atlas semantiques in order to 
represent the different senses of each word. It uses the linguistic relations 
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between words to create graphs that are projected into a semantic space. 
These projections constitute semantic maps that denote the sense trends 
of each given word. This model is fed with syntactic relations between 
words extracted from a corpus. Therefore, the lexico-semantic resource 
produced describes all the words and all their meanings observed in the 
corpus. The sense trends are expressed by syntactic contexts, typical for 
a given meaning. The link between each sense trend and the utterances 
used to build the sense trend are also stored in an index. Thus all the 
instances of a word in a particular sense are linked and can be browsed 
easily. And by using several corpora of different languages, several re- 
sources are built that correspond with each other through languages. It 
makes it possible to browse information through languages thanks to syn- 
tactic contexts translations (even if some of them are partial). 
Keywords: lexico-semantic resource, sense representation, semantic brow- 
sing, multilingual information management, multilingual corpus, cross- 
lingual browsing. 



1 Introduction 

Dans notre societe, la quantite d'information textuelle disponible augmente 
de maniere telle qu'aucun etre humain ne peut plus la maitriser. Or elle est 
devenue une richesse capitale dans des secteurs aussi varies que la politique, 
la culture, I'enseignement, la defense, reconomie, etc. La situation est d'autant 
plus difficile a gerer que rinformation n'est plus necessairement disponible dans 
la langue des utilisateurs, mais qu'elle est egalement a chercher en d'autres 
langues. Des approches automatiques sont des lors necessaires pour identifier et 
indexer les contenus afin d'y donner un acces aise et immediat a la demande. 

Les approches automatiques de la gestion de rinformation se heurtent tou- 
tefois a une difficulte majeure : celle de la comprehension des textes, et des 
mots qui les composent. L 'utilisation de dictionnaires, naturellement mise en 
oeuvre immediatement, a devoile plusieurs defauts majeurs de ces ouvrages lors- 
qu'ils sont utilises dans le cadre d'une exploitation automatique : couverture 
insuffisante du lexique, decoupage en acceptions arbitraire et parfois incoherent, 
information souvent lacunaire ou peu systematique, structure et donnees aise- 
ment comprehensibles pour un etre humain, mais necessitant des connaissances 
prealables et complexes pour la machine... Plusieurs initiatives ont cherche a 
pallier ces defauts. Les unes ont amene a la creation de ressources concep- 
tuelles ou ontologiques censees representer I'univers selon une hierarchie (par 
exemple Cyc, [Lcnat et Guha, 1990]), d'autres recensent le lexique qu'elles or- 
ganisent en ensembles semantiques (comme WordNet, [Fellbaum, 1998]) ou com- 
binatoires (comme le DECFC, cf. [Mel'cuk et al, 1984, Mel'cuk et al, 1988, 
Mel'cuk et al, 1992, Mel'cuk et al., 1999]), certaines tentent de combiner les 
donnees disparates fournies par plusieurs dictionnaires [Jacquemin, 2005]. Ce- 
pendant, aucune de ces approches n'a jusqu'a present resolu a la fois les pro- 
blemes de couverture, de decoupage semantique et d'objectivite. Par ailleurs, les 
difficultes relatives au passage de textes d'une langue a une autre, bien connues 
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du monde de la traduction, qu'elle soit humaine, assistee par ordinateur ou au- 
tomatique, reclament des ressources toujours plus riches et plus precises, ce qui 
rend le probleme d'autant plus complexe. 

Un modele vise cependant a representer le sens a partir de relations d'ordre 
linguistique entre unites lexicales grace a une approche mathematique et statis- 
tique [Ploux, 1997]. Ce modele, appele Atlas semantiques, a montre au cours de 
plusieurs experiences ses capacites a apprehender la semantique lexicale. Nous 
proposons d'exploiter les qualites de ce modele en utilisant comme lien entre 
les unites lexicales des relations syntaxiques issues de I'analyse de corpus. La 
dimension multilingue est assuree par le choix de corpus distincts, de langues 
differentes, de grande taille et de contenu comparables, telles les differentes ins- 
tances de I'encyclopedie Wikipedia. Pour chaque langue traitee, nous pensons 
etre en mesure de constituer une ressource lexico-semantique de qualite, qui 
devrait lever une grande partie des reticences affichees par le domaine du trai- 
tement de I'information a propos de I'arbitraire dans le decoupage choisi et a 
propos la couverture, tant lexicale que semantique, a condition que les corpus 
soient sufSsamment representatifs de la langue a traiter. 

Par ailleurs, la construction du dictionnaire a partir d'un corpus permet de 
conserver un lien direct entre I'information semantique de la ressource et les 
enonces correspondants dans le corpus, qui constituent des lors des exemples in 
situ des usages reels. De ce fait, le dictionnaire construit constitue un excellent 
moyen de naviguer a travers I'information contenue dans les corpus en utilisant 
le sens comme reference de navigation. Enfin, I'exploitation d'un dictionnaire de 
traduction entre les ressources de langues distinctes permet de mettre en rapport 
des espaces semantiques comparables, propres a chaque corpus, et de rapprocher 
non seulement des mots traduits, mais egalement des sens et des bribes de 
textes. Cela constitue de ce fait un outil d'aide a la traduction apparente aux 
systemes a memoire de traduction, mais egalement une possibilite de passer 
d'une information contenue dans un des corpus a son equivalent dans un autre 
corpus, et done dans une autre langue. 

Nous commengons par presenter le modele des Atlas semantiques, ses qua- 
lites, ses specificites et ses applications actuelles avant d'exposer la methode 
que nous proposons pour construire une ressource semantique propre a combler 
certaines carences des dictionnaires traditionnels et a fournir un outil de na- 
vigation a travers une information textuelle. Ensuite, nous montrons comment 
un dictionnaire de traduction permet de relier aisement et efHcacement nos res- 
sources lexico-semantiques distinctes. Enfin, nous concluons en presentant les 
perspectives ouvertes par ce projet. 

1.1 Le modele des Atlas semantiques 

1.2 Representation du sens et synonymie 

L'equipe de S. Ploux, Modeles mathematiques et neuropsychologiques pour le 
langage (L2C2, CNRS), a mis au point les Atlas semantiques, un modele tout a 
fait original de representation du sens tres eloigne du decoupage en acceptions 
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propre aux dictionnaires traditionnels. La validite de la representation du sens 
par ce modele a ete montree dans des evaluations lexicologiques [Ploux, 1997, 
Ploux et Victorri, 1998] et psycholinguistiques (cf. [Rouibali et ai, 2001, Ji, 2004] 
et, dans une moindre mesure, [Maslov, 2004]). II presente entre autres la par- 
ticularite d'analyser statistiquement des liens etablis entre unites lexicales par 
des humains afin d'etablir le plus objectivement possible une carte representant 
les differentes tendances de sens pour chacun des mots traites. Les differentes 
tendances sent exprimees visuellement et relativement, par la projection, dans 
un espace cartographique, de mots auquel le mot considere est relie. Chaque 
carte permet done d'avoir une vision intuitive de la richesse semantique d'un 
mot considere. 

Le modele a ete originellement congu pour resoudre les problemes rela- 
tifs a I'utilisation simultanee d'indications de synonymie^ fournies par sept 
dictionnaires [Guizot, 1848, Lafaye, 1841, Benac, 1956, Bailly et de Toro, 1946, 
Bertaud du Chazaud, 1971, Guilbert et al, 1977, Robert et ai, 1985]. En effet, 
le decoupage en acceptions disparate effectue par ces dictionnaires les rendait 
impropres a une mise en commun simple des correspondances synonymiques. 
De ce fait, [Ploux, 1997] a propose d'exploiter la theorie des graphes et I'ana- 
lyse factorielle des correspondances pour concevoir une methode qui articule les 
mots les uns par rapport aux autres sous Tangle du sens. Ce modele se veut 
objectif dans la mesure ou il est fonde sur une analyse statistique des liens de 
synonymie entre les mots etudies pour aboutir a une representation du sens. II 
se veut egalement intuitif puisque la distribution des sens est presentee dans un 
espace geometrique multidimensionnel, ou chaque mot se voit represente dans 
une carte qui lui est propre. Enfin, il manifeste sa difference en presentant les 
sens d'un meme mot non plus selon un decoupage strict des differentes accep- 
tions, mais dans un continuum semantique ou la distance entre deux acceptions 
est fonction de la difference entre les sens qui leur sont associes. 

Le modele se fonde sur la construction de graphes a partir de relations entre 
entites. Les entrees et leurs synonymes constituent les entiles, les sommets, tan- 
dis que le lien de synonymie entre ces unites lexicales en represente les aretes. 
Un seul type de graphe est conserve dans le cadre du modele : la clique. II s'agit 
d'un type de graphe particuHer dans lequel tons les sommets sont interconnec- 
tes les unes avec les autres, ce qui signifie que chaque unite lexicale consideree 
possede une relation de synonymie explicite avec toutes les autres qui consti- 
tuent la clique. Ce graphe particulierement dense relie done des unites qui sont 
tres etroitement liees d'un point de vue semantique. L'interconnexion de chaque 
unite lexicale composant une clique avec plusieurs autres unites permet de de- 
terminer le sens particulier de chaque unite dans la clique consideree. On pourra 
par exemple retrouver le mot type dans deux cliques tres differentes, au voisi- 
nage de amant ou honhomme pour I'une, dans un sens lie au couple, ou avec 
exemple ou archetype pour I'autre, dans une acception denotant la categoric. 
La clique constitue des lors un niveau de granularite de sens plus fin que le mot 



^Cette application synonymique des Atlas semantiques est disponible en ligne sur 
http ://dico. isc.cnrs.fr. 
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Fig. 1 - Carte semantique synonymique de maison. 



lui-meme, plus fin que I'acception du dictionnaire classique egalement, car les 
cliques sont generalement plus nombreuses que les acceptions, et deux cliques 
tres voisines peuvent ne varier que par une ou deux unites lexicales, et recouvrir 
des significations qui se confondent. 

Une fois les cliques constituees, un traitement statistique appele analyse 
factorielle des correspondances est applique a chacune des cliques constituees 
pour une unite donnee. Ce traitement permet de disposer dans un espace geo- 
metrique multidimensionnel chacune des cliques dont les coordonnees varieront 
en fonction de son contenu et de la densite des liens que les differents diction- 
naires etablissent entre ces unites lexicales. Une projection de cet espace multi- 
dimensionnel sur un plan en deux dimensions permet de visualiser les tendances 
semantiques du mot considere, relativement aux synonymes contenus dans les 
cliques ainsi visualisees. La figure 1 montre la carte semantique du mot maison, 
dont les tendances de sens sont manifestees par des synonymes, qui distinguent 
la raison sociale, le batiment, la domesticite, la famille, etc. 

Ce modele fournit des lors une ressource semantique qui represente objecti- 
vement des relations d'ordre semantique dont I'etablissement n'est pourtant pas 
forcement aussi objectif, puisqu'il est realise par les auteurs des differents dic- 
tionnaires utilises. Cette ressource, qui comporte I'information extraite de sept 
dictionnaires, presente de ce fait une richesse inusitee tout en manifestant une 
grande coherence dans son information. Enfin, le continuum semantique dans 
lequel chaque tendance semantique s'inscrit brise la structure classique des dic- 
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tionnaires traditionnels dont le decoupage en acceptions est souvent arbitraire 
et trop exclusif. 

1.3 Atlas semantique et corpus 

La capacite remarquable du modele des Atlas semantiques a decrire le sens 
lexical a partir de relations de synonymie entre unites lexicales a amene I'equipe 
de S. Ploux, et plus particulierement H. Ji a s'interesser a d'autres applications 
a travers d'autres types de liens. En effet, I'application originelle souffre de son 
besoin de disposer de plusieurs dictionnaires preexistants, couteux en temps et 
en argent, pour construire les graphes. De plus, I'association entre une tendance 
de sens et des synonymes n'est pas toujours pertinente dans le cadre de I'etude 
cognitive du langage. C'est done logiquement que [Ploux et Ji, 2003] en sont 
venus a considerer un corpus comme une ressource pertinente pour denoter le 
sens lexical sans dictionnaire, utilisant pour ce faire le vocabulaire typiquement 
associe a un mot pour chacune de ses tendances de sens plutot que ses syno- 
nymes. 

De fait, un corpus contient intrinsequement une structure qu'il est aise de 
representer sous forme de graphes, a partir desquels peuvent etre selectionnees 
les cliques lorsque ces graphes contiennent des sommets qui sont tous intercon- 
nectes. Ainsi, si la relation choisie entre les mots est I'appartenance a un mSme 
contexte, et que le contexte est defini par une fen^tre predeterminee, tous les 
mots appartenant a cette fenfitre sont interconnectees et appartiennent virtuel- 
lement a la meme clique. La nouvelle ressource issue de cette approche est done 
contextuelle^ la ou le dictionnaire originel est synonymique. Les contextes ty- 
piques qui apparaissent dans les cartes semantiques sont appeles contexonymes 
[Ji, 2004]. 

L'utiHsation conjointe du modele des Atlas semantiques et d'un corpus im- 
pose toutefois deux remarques importantes. La premiere concerne I'etendue du 
corpus. En effet, la richesse de la ressource obtenue est evidemment fonction de 
la richesse du corpus, c'est-a-dire que seuls les mots representes dans le corpus 
sont presents dans la ressource, puisque ce sont ces mots qui servent a construire 
la ressource. Pour une raison tout aussi evidente, seuls les sens attestes dans le 
corpus peuvent apparaitre dans la ressource qui en est issue, puisque I'unite 
de sens est la cHque et que les cliques sont issues de I'analyse du corpus. Le 
corpus doit done etre sufHsamment consequent non seulement pour contenir un 
lexique juge de taille raisonnable - un dictionnaire general classique contient 
pour le frangais environ 60 000 entrees -, mais egalement pour que les diffe- 
rents sens de chacune des unites lexicales de ce vocabulaire y soient attestes. 
Un examen attentif du corpus, tant dans sa variete lexicale que dans la di- 
versite des sujets abordes, voire des genres litteraires representes, est des lors 

^[Ji et Ploux, 2003] donnent le nom d'ACOM (Automatic Contexonym Organizing Model) 
a cette application. Pour la clarte de notre propos, nous parlerons desormais d'Atlas seman- 
tique contextuet parallelement a V Atlas semantique synonymique originel. Pour les represen- 
tations semantiques visuelles, nous utiliserons egalement les termes de cartes semantiques 
contextuelles et de cartes semantiques synonymiques, respectivement. 
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necessaire [Bibcr et, ai, 1998]. La seconde remarque decoule logiquement de la 
premiere. En effet, la taille necessairement importante du corpus ne permet pas 
d'envisager I'utilisation simple de toutes les cliques concernees, dont le nombre 
et la diversite seraient sources de bruit. [,Ji et al., 2003] ont done mis en place 
plusieurs criteres de limitation et de contrainte qui permettent d'augmenter la 
precision du resultat. Notamment, il est possible, pour chaque clique construite 
pour un mot donne, de limiter les mots consideres comme pertinents aux seuls 
dont la frequence d'apparition dans le contexte du mot considere depasse un 
seuil predefini. Les contextes rares sont ainsi elimines. Comme cette contrainte 
ne suffit pas a limiter sufRsamment le bruit, les contextes de ces mots proposes 
pour la construction des cliques sont eux-memes etudies, de maniere a suppri- 
mer egalement les contextes ou un cooccurrent frequent du mot considere se 
trouve lui-meme dans un contexte qui lui est rare. Dans un meme ordre d'idee, 
les mots les plus frequents du corpus sont egalement elimines de la construction 
des cliques de maniere a eviter la presence systematique d'articles, prepositions, 
auxiliaires et autres mots-outils qui sont porteur d'une semantique faible et 
peuvent rarement amener a discriminer les differents sens d'une m^me unite 
lexicale. 

La fenetre utilisee est soit une fenetre arbitraire de vingt-cinq mots [Ji, 2004], 
soit la phrase [.Ji et Ploux, 200.3]. Les cinq cents mots les plus frequents du cor- 
pus sont elimines du calcul des cliques. Ce sont generalement les unites qui 
font partie des cinq pour-cent des contextes les plus frequents qui sont conser- 
vees pour construire ces cliques. Une fois ces dernieres construites, une analyse 
factorielle des correspondances semblable a celle utilisee dans le cadre de la sy- 
nonymic permet de les disposer dans un espace geometrique multidimensionnel, 
dont la projection dans un plan represente objectivement les diverses tendances 
d'un mot donne. Cependant, a la difference des espaces synonymiques, ce sont 
les contextes les plus typiques de I'unite consideree dans un sens donne qui 
permettent d'en distinguer les differents sens^. La figure 2 montre la carte se- 
mantique du mot regie issue de I'examen du corpus. Ce sont des lors les contextes 
typiques du mot qui en indiquent les differentes tendances de sens. 

Dans la perspective d'une etude cognitive du langage, diverses experiences 
ont ete menees pour tester la validite de cette application du modele. Dans 
I'une d'entre elles notamment, [.Ji, 2004] compare des associations de mots rea- 
lisees sur presentation d'un mot-stimulus par des sujets humains et les contextes 
typiques fournis a ces m6mes mots-stimuli par le modele, et y retrouvent globa- 
lement le meme lexique. [Maslov, 2004] a egalement montre que la construction 
de deux ressources distinctes a partir de deux corpus anglais de domaines dif- 
ferents ( The MIT Encyclopedia of the Cognitive Sciences pour I'un et environ 
120 resumes (abstracts) d'articles neuroscientifiques pour I'autre) produit des 
cartes semantiques differentes, representatives des habitudes langagieres des re- 
dacteurs de I'un ou de I'autre domaine. Si ces experiences tendent a montrer que 

^Un prototype de cette application du modele des Atlas semantiques a un corpus est 
consultable en ligne sur http ://dico.isc. cnrs.fr/fr/dico/context/search. Les corpus utilises sont 
le British National Corpus pour I'anglais et le corpus du journal Le Monde (1997-2002) pour 
le frangais. 
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le modele est capable de creer une cartographie de la perception du sens chez les 
redacteurs d'un corpus ou d'un dictionnaire, elles montrent egalement son apti- 
tude a decrire sans a priori I'ensemble des sens attestes pour tout le lexique du 
corpus utilise. II est d'ailleurs remarquable que la carte semantique contextuelle 
du mot regie (figure 2), obtenue suite a I'examen du corpus Le Monde 1997- 
2002, ne comporte pas toutes les acceptions de ce terme, et omet notamment 
les sens lies a I'instrument de mesure ou aux menstruations feminines. En effet, 
ces sens n'apparaissent pas dans le corpus d'origine. Des lors, il est evident que 
lorsqu'un corpus specialise est utilise pour etablir un dictionnaire semantique 
selon la methode decrite plus haut, la ressource qui en decoule est elle-m^me un 
dictionnaire de specialite, dont le lexique et la semantique sera le fidele reflet du 
domaine traite par le corpus, avec les restrictions deja presentees dans le choix 
du corpus [Jacquemin et Ploux, 2006]. 



2 Semantique lexicale et navigation information- 
nelle 

2.1 Contexte syntaxique en corpus et representation du 
sens 

Mais si le modele des Atlas semantiques est bien apte a recenser et a re- 
presenter les mots et les sens des mots attestes dans un corpus, la methode 
mise en ceuvre pour ce faire comporte des lacunes ou des imperfections qu'il est 
necessaire de faire disparaitre pour augmenter la confiance que Ton pent avoir 
dans la ressource produite et pour diminuer encore le bruit, qui reste important 
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malgre les techniques statistiques de reduction mentionnees plus haut. Sur la 
figure 2, la distinction entre echappe et echappent, de pure forme, n'est pas ne- 
cessaire pour specifier des contextes typiques. Les defauts concernent d'abord la 
faible qualite de la relation entre les mots, ensuite la distinction erronee entre les 
differentes formes d'une meme unite lexicale, enfin la confusion entre des uni- 
tes distinctes mais homographes. Ces faiblesses de la technique employee sont 
sources d'erreurs et nous proposons d'y remedier par une approche mixte qui 
fait intervenir, en plus des methodes mathematiques et statistiques propres au 
modele des Atlas semantiques, plusieurs traitements d'ordre Hnguistique. 

Notre premiere proposition concerne I'etabHssement d'un Hen entre les mots 
plus pertinent que la simple proximite dans une fenetre arbitraire, et meme plus 
fort que I'appartenance a une meme phrase. En effet, I'utilisation statistique 
d'un seuil de frequence pour determiner I'importance d'un contexte dans la me- 
thode d'analyse de corpus presentee ci-dessus, quoique tres efficace et simple a 
mettre en oeuvre, n'en reste pas moins aleatoire et empirique. Nous proposons 
done d'exploiter un type de relation qui garantit une interdependance reelle 
entre les unites lexicales utilisees comme contextes typiques. Les relations syn- 
taxiques permettent de garantir une appartenance reelle des differentes unites 
au mgme contexte. En effet, les approches distributionnalistes - par exemple 
les travaux de [Firth, 1957] ou de [Harris, 1968] - ont montre une proximite de 
sens remarquable entre les unites lexicales dont le contexte syntaxique est simi- 
laire. Par ailleurs, la necessite d'identifier I'acception correcte en contexte d'un 
terme polysemique, dans des problematiques telles que la traduction automa- 
tique [Weaver, 1949] ou la desambigui'sation semantique lexicale [Reifier, 1955], 
a mis en evidence I'interet du contexte syntaxique dans ce processus. Des lors, 
un systeme d'analyse syntaxique va s'inscrire dans la phase d'examen du corpus, 
de maniere a etablir des liens syntaxiques entre unites lexicales et entre tfites de 
groupes syntaxiques. Toutefois, une application trop stricte de cette forme de 
contrainte risquerait de faire perdre le benefice d'un corpus de taille raisonnable 
- environ cent millions de mots pour un corpus general -, car certains contextes 
peuvent apparaitre dans ce type de corpus et Stre consideres comme typiques 
d'un mot dans un sens donne, sans qu'une relation syntaxique n'unisse au pre- 
mier chef le terme considere et son contexte. Une relation syntaxique, que nous 
appelons secondaire, pent de ce fait etre consideree comme pertinente, a condi- 
tion que le lien primaire ne soit interrompu qu'une seule fois. Ainsi, on pourra 
considerer que dans les expressions decrire un cercle et decrire un arc de cercle, 
le terme cercle pent egalement etre considere comme un contexte de decrire. 
Dans la seconde expression, le lien secondaire entre decrire et cercle n'est en 
effet interrompu qu'une seule fois, puisque arc est relie a la fois a decrire et a 
cercle par une relation primaire. 

Les autres problemes recouvrent la difficulte que pent eprouver un systeme 
automatique pour apprehender la dimension fiexionnelle d'un grand nombre 
d'unites lexicales. En effet, la methode des contextes proches ne distingue que 
des sequences de lettres, des graphies, et pas reellement les unites lexicales. De 
ce fait, les expressions il a fait des courses et il fera des courses seront trai- 
tees separement, alors que le sens lexical est identique. De meme, chaque forme 
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d'un meme nom ou adjectif sera traitee separement de toutes les autres, ce qui 
amene a sous-estimer la typicite d'un contexte, ou meme a distinguer deux si- 
gnifications differentes pour I'apparition d'un meme contexte dans le voisinage 
d'une meme unite lexicale. II arrive bien sur que la flexion soit choisie a des- 
sein pour susciter un changement de sens. Ainsi, une expression comme faire 
le trottoir n'est pas a priori porteuse d'une dimension semantique en rapport 
avec des travaux publics routiers, contrairement a son pendant faire les trottoirs. 
Ces changements de sens sont cependant relativement rares, et semblent plus 
souvent induits par des variations en morphologic nominale qu'en morphologic 
verbale. Des lors, une analyse morphologique complete s'impose comme la solu- 
tion logique a ces difHcultes. Un systeme d'analyse morphologique automatique 
permet de distinguer les categories grammaticales des mots et d'obtenir leur 
lemme tout en conservant la forme de mot telle qu'elle apparait dans le texte. 
De la sorte, les differentes formes d'une meme unite lexicale peuvent etre uni- 
fiees, tandis que sont distinguees des unites differentes qui presentent une meme 
graphic. Nous proposons d'utiliser comme sommets des graphes des unites lexi- 
cales sous forme de lemmes, et plus des formes de mots. Cette preference pour le 
lemme comme entite de reference reste cependant parametrable, essentiellement 
pour les substantifs, conformement a la remarque faite plus haut. Par ailleurs, 
I'analyse morphologique est egalement en mesure d'eliminer automatiquement 
les mots-outils du calcul des contextes typiques sans recourir a une suppression 
statistique. En eflet, leur semantique, particulierement faible, n'a que tres peu 
d'influence sur le sens en contexte et n'est done pas pertinente dans ce type 
d'application. Du fait de cette elimination plus ciblee, des unites lexicales par- 
ticulierement frequentes ne seront plus supprimees par erreur, tandis que des 
interjections, prepositions et autres determinants peu frequents ne pollueront 
plus les cartes semantiques, comme c'etait le cas lorsque des techniques statis- 
tiques etaient utilisees. 

Ces differentes propositions nous ont amenes a revoir entierement les ele- 
ments d'information manipules par le modele de representation du sens dans 
I'Atlas semantique contextuel. En effet, ce sont non seulement les relations entre 
sommets des cliques qui seront modifiees, puisque de relations de proximite, elles 
deviendront relations syntaxiques, mais aussi les sommets eux-memes, qui ne se- 
ront plus des sequences de caracteres ou des formes de mots, mais des unites 
lexicales generalement sous forme de lemmes. Des lors, les elements sur les- 
quels le modele peut s'appuyer pour construire les cliques correspondent mieux 
par leur qualite aux caracteristiques des ressources employees a I'origine pour 
le valider. La construction des cliques peut de ce fait se conformer plus com- 
pletement au modele, et Stre calquee sur la methode utilisee dans le cadre de 
la construction de I'Atlas semantique synonymique. En effet, la transformation 
des donnees manipulees par le modele par rapport a la methode des contextes 
proches a rendu obsoletes les contraintes statistiques de limitation du bruit. Ce 
sont done des relations syntaxiques primaires ou secondaires entre des lemmes 
ou formes de mots identifiees qui seront reunies dans les cliques. Comme pour les 
autres applications, elles seront ensuite disposees dans un espace geometrique 
multidimensionnel, dont la projection sur un plan permettra de visualiser les 
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tendances de sens pour chaque unite lexicale attestee dans le corpus exploite. 

Comme dans la methode utilisee pour I'Atlas contextual, le dictionnaire ainsi 
produit sera representatif du corpus utilise pour sa construction. L'ensemble du 
lexique present dans le corpus sera represente dans la ressource semantique, 
et tous les sens attestes dans ce corpus trouveront egalement leur reflet dans 
les cartes semantiques. Nous insistons a nouveau sur la necessite de richesse 
et d'excellence du corpus choisi, car la qualite du dictionnaire semantique sera 
fonction des facteurs de diversite et d'etendue du corpus exploite. II faut ega- 
lement noter que plus le corpus utilise est representatif de la langue etudiee, 
plus la ressource produite y sera egalement adaptee. Le dictionnaire aura des 
caracteristiques plus generales si des textes plus generaux ou moins cibles sur 
un domaine apparaissent dans le corpus. 

2.2 Representation du sens et information en corpus 

Construire une ressource lexico-semantique grace au modele des Atlas seman- 
tiques a travers un corpus n'est pas sans consequences sur les possibilites de la 
ressource. En effet, le dictionnaire contextuel que nous proposons de construire 
constituera d'abord I'outil le plus adapte a la description et a I'etude lexicale 
et lexico-semantique dudit corpus. Notamment, l'ensemble du lexique present 
dans les textes apparaitra dans la ressource, et tous les sens qui sont attestes 
dans le corpus y seront egalement representes, tandis que le vocabulaire absent 
du corpus, ou les sens qui n'y sont pas attestes, ne pourront flgurer dans le dic- 
tionnaire. La flgure 2 illustre bien ce principe''. En effet, cette carte semantique 
issue de la ressource contextuelle, et done constituee sans analyse syntaxique ni 
morphologique, montre les difi'erentes tendances de sens de regie. On remarque 
que des sens aussi courants que celui de I'instrument de mesure ou celui des 
menstruations n'apparaissent pas dans la carte semantique. II est interessant de 
noter que ces sens absent du dictionnaire ne flgurent pas non plus dans le corpus 
journalistique utilise®. 

D 'autre part, la methode que nous proposons permet aisement de conser- 
ver un lien entre la representation de chaque tendance de sens des mots et les 
instances qui, dans le corpus, ont permis de construire cette representation, et 
en constituent des lors des exemples representatifs. De plus, grace a I'analyse 
morphosyntaxique qui a ete effectuee sur le corpus, I'acces aux enonces per- 
met de beneficier egalement des schemas syntaxiques associes a la tendance de 
sens selectionnee, et d'en deduire eventuellement une construction typique, un 
usage particulier ou un schema de sous-categorisation plus ou moins precis. On 
pourrait ainsi atteindre grace a la carte semantique de peindre un ensemble 
d'exemples ou le verbe est systematiquement rattache a un groupe preposition- 

^La ressource que nous proposons de realiser n'est pas encore construite. Toutefois, cer- 
taines de ses caracteristiques peuvent d'ores et deja etre extrapolees sur la base de I'Atlas 
contextuel. 

^Les cinq annees du journal Le Monde utilisees pour constituer cette ressource sont pour- 
tant un corpus tres large de plus de cent millions de mots. II s'agit toutefois d'un genre 
litteraire particulier, finalement assez peu representatif d'un etat de langue naturel. 
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nel de preposition en dont la t&te serait un nom de couleur, denotant ainsi le 
sens de couvrir de peinture de couleur. On se rapproche ainsi des specificites et 
des qualites decrites par [Mel'cuk et ai, 1995] pour la constitution d'un Diction- 
naire explicatif et comhinatoire. En effet, le lien direct entre le sens d'un mot et 
ses instances, a la fois syntaxiques et lexicales, pourrait constituer un excellent 
outil d'aide au traitement des vocables pour la construction de dictionnaires tels 
que le DECFC. 

Ce dictionnaire lexico-semantique constitue done la description ad hoc et 
integrale du vocabulaire present dans le corpus et des sens de ce vocabulaire 
qui y sont attestes, et les relations entre la representation semantique et les 
enonces qui ont servi a la realiser sont conservees et peuvent fitre suivies dans 
les deux directions. De ce fait, cette ressource est un excellent outil de naviga- 
tion a travers I'information contenue dans le corpus de reference. En effet, non 
seulement la carte semantique d'une unite lexicale fournit un acces immediat 
a I'ensemble des enonces qui contiennent cette unite dans un sens selectionne, 
mais elle permet aussi d'avoir acces a tous les exemples attestes d'une expres- 
sion syntaxiquement coherente, puisque la tendance de sens est exprimee par 
les contextes semantiques typiques de I'unite lexicale pour un sens determine. 
Par ailleurs, il est possible d'effectuer une navigation thematique a travers le 
corpus, en passant de bribe en bribe, chacune d'entre elles contenant une oc- 
currence d'une m(3me tendance de sens, et reliees entre elles dans une carte 
semantique. II est enfin envisageable d'exploiter un ensemble de cartes seman- 
tiques comme autant de clefs de recherche, et de selectionner finalement non pas 
les documents qui contiennent ces mots-clefs, mais de restreindre les reponses 
aux documents qui contiennent les sens desires, reduisant ainsi le bruit parmi 
les reponses obtenues. Au-dela de caracteristiques proposees egalement par les 
dictionnaires classiques, la ressource que nous proposons comporte done un cer- 
tain nombre de qualites intrinseques qui en font un outil de premier plan dans 
la perspective du traitement automatique de I'information textuelle. 

2.3 Presentation pratique de I'approche 

Dans le cadre de la recherche presentee dans cet article, nous avons reaHse un 
prototype qui permet de construire une ressource lexico-semantique conforme a 
notre approche a partir d'un corpus textuel. Dans sa version actuelle, ce proto- 
type ne permet de gerer qu'une quantite limitee de donnees, et ne dispose pas 
encore d'une sortie graphique pour I'afRchage des tendances de sens denotees 
par les cliques, comme c'est le cas pour les Atlas synonymique et contextuel. 
Par ailleurs, deux ressources sont necessaires pour traiter le multilinguisme et 
le passage entre deux langues. Deux corpus ont done du etre constitues. 

Les corpus utiHses sont des ensembles de textes issus de la sauvegarde de 
I'Encyclopedie Wikipedia datee de novembre 2006 dans ses instances frangaise 
et anglaise. Le texte en a ete pretraite de maniere a etre debarrasse de tout 
formatage typographique ainsi que des images, tableaux et autres entites non 
textuelles qui risquaient de perturber I'analyse. Les corpus sont constitues de 
846 articles d'une taille minimale de 1500 mots, et dont le titre est le meme dans 
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chacune des versions de Tencyclopedie, de maniere a disposer de thematiques 
semblables malgre la taille reduite de I'echantillon. lis presentent toutefois des 
differences, notamment dans le nombre total de mots qu'ils contiennent, soit 

2 329 811 mots frangais et 3 303 498 mots pour I'anglais. Chaque corpus a ete 
entierement soumis a une analyse morpho-syntaxique automatique, respective- 
ment par I'analyseur SYNTEX pour le Frangais [Bourigault et Fabrc, 2000] et 
le Stanford Parser pour I'anglais [Klein et Manning, 2003]. Chacun de ces ana- 
lyseurs presente la caracteristique d'effectuer une analyse morphologique et une 
desambigui'sation categorielle prealable a I'analyse syntaxique. lis construisent 
ensuite un ensemble de dependances correspondant aux relations syntaxiques 
entre les tetes des syntagmes reperes. 

A Tissue de cette analyse, nous avons rejete les mots-outils, peu informatifs 
sur la typicite semantique du contexte, ainsi que toutes les dependances qui im- 
pliquaient ces mots-outils. Deux ensembles de dependances ont ainsi ete formes, 
de 64 539 relations pour le frangais et de 84 769 relations pour I'anglais. Le 
lexique convert est de 43 335 lemmes differents pour le frangais et de 55 348 
pour I'anglais. Ces ensembles ont ete collectes dans une base de donnees, et 
sont associees a leur enonce d'apparition de maniere a etablir un lien entre un 
contexte et son usage authentique. 

L'etape suivante consiste a constituer les cliques, c'est-a-dire les graphes com- 
plets formes par des ensembles de mots lorsqu'ils sont relies a tons les autres 
membres de la clique par une dependance syntaxique dans le corpus considere. 
Les cliques considerees sont de deux ordres : les cliques primaires, issues de rela- 
tions syntaxiques directes entre deux unites lexicales, et les cliques secondaires, 
qui sont formees en considerant comme reliees entre elles des unites lexicales ne 
comportant aucune dependance en commun, mais qui sont en relation avec une 
meme unite lexicale intermediaire. L'algoritlime de construction dynamique des 
cliques en fonction de la lemmatisation ou non de certaines categories gramma- 
ticales est toujours en developpement. Toutefois, nous avons construit manuel- 
lement les cliques primaires liees a une dizaine d'unites lexicales. Les premiers 
tests menes sur ces cliques sont prometteurs, car ils font apparaitre notamment 
plus de contextes verbaux, qui etaient precedemment minimises voire gommes 
du fait de leur richesse morphologique par I'approche de I'Atlas contextuel. 

L'etape ulterieure consistera a realiser I'interface graphique qui permettra 
de projeter ces ensembles de cliques dans un espace semantique de maniere 
a disposer d'une representation semantique des sens, tout en distinguant les 
representations issues de relations primaires et secondaires. 

3 Corpus bilingues et information multilingue 

En outre, le modele des Atlas semantiques se prSte bien a une utilisation 
avancee en contexte multilingue. En effet, S. Ploux a montre combien il etait 
aise de mettre au moins partiellement en correspondance la carte semantique 
lexicale avec celle de sa traduction, et ainsi d'indiquer dans quel sens une unite 
lexicale pent etre la traduction valide d'une autre, et dans quel sens ce n'est pas 
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le cas [Ploux ct Ji, 2003, Ploux, 2007]. 

La methode mise en ceuvre vise a renrichissement respectif des ressources 
synonymiques de chacune des deux langues visees. Elle s'appuie sur un simple 
dictionnaire de traduction qui est charge de traduire dans I'autre langue, et de 
toutes les manieres qu'il connait, chaque unite lexicale presente dans la carte 
semantique de la langue source, de maniere d'une part a mettre en correspon- 
dance, lorsque c'est possible, les differentes tendances de sens des deux langues 
concernees, et d'autre part a developper au maximum le vocabulaire denotant 
les sens dans la langue cible, de maniere a enrichir la ressource synonymique de 
cette langue. 

Notre proposition, dans le cadre de la construction d'une ressource lexico- 
semantique a finalite de gestion de I'information textuelle, vise moins a I'enri- 
chissement des cartes semantiques qu'a leur mise en correspondance a travers 
les langues traitees. Toutefois, outre le fait que la methode de S. Ploux a ete 
congue specifiquement pour le modele des Atlas semantiques, elle nous semble 
egalement capable de repondre a nos besoins. II s'agit cependant d'en noter 
les exigences, en particulier en creant deux ressources comparables, une pour 
chaque langue traitee. Pour ce faire, nous devons disposer pour chaque langue 
d'un corpus de taille raisonnable, c'est-a-dire susceptible de contenir la majeure 
partie du lexique general courant, qui soit representatif non seulement du voca- 
bulaire utilise, mais egalement de I'etendue semantique de ce vocabulaire. Par 
ailleurs, il faut idealement que les thematiques abordees par I'un le soient ega- 
lement par I'autre avec un niveau de specialisation globalement comparable. 
Comme des corpus paralleles generaux de cette taille ne sont pas disponibles et 
qu'il n'est pas envisageable d'en creer facilement et rapidement, I'exploitation de 
deux instances de I'encyclopedie Wikipedia de langues differentes comme corpus 
comparables nous semble un choix adapte a ces criteres. 

En effet, ces instances de I'encyclopedie constituent des corpus de grande 
taille dont la qualite orthographique depasse la moyenne des corpus collectes sur 
Internet ou dans des journaux, du fait de I'intervention immediate de la part 
de nombreux lecteurs qui s'instituent correcteurs voire contributeurs. Les textes 
qu'elles contiennent se rapprochent egalement des articles d'une encyclopedie 
generale, abordant de ce fait de nombreux sujets plus ou moins specialises, et 
qui done sont susceptibles de contenir une part extremement large du lexique de 
la langue pratiquee, ainsi que la plupart des acceptions attestees de ce lexique. 
Ce point est capital pour la generalite de la ressource produite, puisque c'est 
la diversite des sens attestes dans le corpus, et done des contextes utilises, qui 
permet une representation effective de ces sens dans une carte semantique. Enfin, 
chaque instance de Wikipedia comporte des articles qui sont le pendant d'articles 
presents dans une ou plusieurs autres instances : on trouvera par exemple un 
article traitant de Louis XIV a la fois dans la Wikipedia frangaise et anglaise, 
sans que Particle d'une langue soit la traduction de Particle dans I'autre langue. 
Cette communaute de sujets abordes, pour partie du moins, est egalement un 
atout non negligeable, car il fournit la certitude que certaines thematiques, et 
done certaines parties du lexique, seront communes a chaque langue consideree, 
et done que la nature des langues traitees aura une certaine coherence. Cela 
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ne pourrait etre le cas en utilisant deux corpus trop distincts, par exemple un 
corpus medical dans une langue et un corpus agronomique dans 1' autre. 

Nous proposons done de realiser, pour le frangais et pour I'anglais (mais 
d'autres langues sont possibles), des ressources lexico-semantiques sur base de 
leur Wikipedia respective, en effectuant une analyse morphosyntaxique de chaque 
article et en construisant pour chaque unite lexicale identifiee I'ensemble des 
cliques disponibles a projeter sous forme de carte semantique. Une traduction, 
mgme partielle, des contextes syntaxiques permettra de faire correspondre au- 
tant que possible les cartes semantiques. Les lacunes inevitables devraient sou- 
vent fitre comblees, dans la mesure ou d'autres contextes typiques denotant 
la meme tendance de sens ont pu trouver leur contrepartie dans I'autre langue. 
Ainsi, la carte semantique de poisson dans le sens « poisson d'agrement » devrait 
presenter des contextes typiques comme aquarium ou bassin. Pour I'anglais, on 
en trouvera generalement la traduction : aquarium, pond. Mais le correspondant 
anglais gold du contexte typique rouge n'en est pas la traduction. Pourtant, les 
instances de poisson rouge seront bel et bien reliees dans la carte semantique a 
la tendance de sens correspondant au poisson d'agrement, et il en va de m^me 
pour le gold fish anglais. Or ces tendances de sens se repondent lorsque les cartes 
semantiques frangaise et anglaise sont mises en correspondance. Les documents 
traitant de poisson rouge dans une langue seront done reliees a ceux qui parlent 
de gold fish dans I'autre, et inversement. Le passage d'une information dans une 
langue a son expression dans I'autre est desormais possible, sans pour autant 
maitriser toutes les etapes de la traduction. 

Le prototype que nous avons presente a la section 3.3., malgre le carac- 
tere limite des donnees qu'il est actuellement capable de traiter, nous a permis 
de tester la mise en oeuvre de la methode que nous proposons. Les ressources 
construites dans chaque langue sont constituees, pour chaque unite lexicale 
consideree, d'un ensemble de cliques qui permettront de representer ses ten- 
dances de sens sous forme d'une carte semantique. L'operation de traduction 
est effectuee grace a une ressource interne du LIMSI, un dictionnaire bilingue 
frangais-anglais construit progressivement dans le cadre d'autres projets, com- 
portant environ 40 000 entrees et 250 000 traductions pour chaque langue. Aucun 
effort n'est fait a ce stade pour trouver la meilleure traduction de I'expression 
de depart dans la langue correspondante en fonction de son sens original : la se- 
lection de la carte d'une entree dans la langue-source provoque dans un premier 
temps la selection des cartes de toutes les traductions de cette entree dans la 
langue-cible proposees par le dictionnaire. 

Que ce soit dans la langue-source ou dans la langue-cible, ce sont done des 
ensembles de cliques comportant des contextes syntaxiques des entrees corres- 
pondantes qui sont selectionnes. Le dictionnaire permet ainsi de rechercher la 
ou les traductions de chaque contexte present dans une clique de la carte dans 
la langue-source, et de rechercher leur presence dans des cliques presentes dans 
une ou plusieurs des cartes de la langue-cible. Certaines cliques de la langue- 
source sont ainsi massivement traduites dans la langue-cible, tandis que d'autres 
le sont beaucoup moins, et ne peuvent done etre eonsiderees comme la corres- 
pondance d'une clique d'origine. II arrive egalement que les composants d'une 
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clique trouvent leurs traduction, mais dispersees dans differentes cliques qui se 
recouvrent peu. Ces traductions ne sont pas non plus a prendre en compte. 

Nous avons done effectue des tests manuels a partir du prototype deja 
construit, et notamment sur le terme frangais poisson dont la traduction est 
fish. Sur notre echantillon, le contexte rouge apparait dans deux cliques fran- 
gaises, et le mot gold dans une clique anglaise. Or on retrouve dans les deux 
cliques frangaises et dans la clique anglaise quatre contextes qui se repondent 
en traduction : petit, tropical, aquarium et nourrir pour le frangais, small, tro- 
pical, aquarium et feed pour I'anglais. Les cliques frangaises sont constituees 
de sept et neuf contextes, et la clique anglaise de sept. Depuis les phrases par- 
lant de poisson rouge dans le corpus frangais, la selection des cliques frangaises 
qui contiennent le mot rouge permet done d'avoir acces a la clique anglaise qui 
contient gold et done aux enonees traitant de gold fish sans que la traduction 
ait ete necessaire. Bien entendu, ce test ne pent pas etre considere comme re- 
presentatif, ni de la langue, ni d'un corpus, et demande a etre systematise sur 
un plus grand volume de donnees. II est toutefois encourageant et va dans le 
sens de nos hypotheses. 

4 Conclusion 

Grace a son application aux relations de synonymie issue de dictionnaires et 
de proximite contextuelle tiree de corpus de grande taille, le modele des Atlas 
semantiques a fait montre de ses qualites pour la description de la semantique 
lexicale. En particulier, son exploitation contextuelle a indique sa capacite a 
denoter le sens atteste dans un corpus sans prendre en compte un lien d'ordre 
semantique, et a en representer I'information. D'autre part, les cartes seman- 
tiques de representation du sens fournies par ce modele peuvent aisement Stre 
mises en correspondance entre langues en utilisant un simple dictionnaire de tra- 
duction. Cependant, si le modele est bien valide par differentes experiences et 
evaluations, sa mise en oeuvre souffre de plusieurs imperfections, essentiellement 
liees a une methode qui ne prend pas en compte la caracteristique langagiere 
des textes. 

Nous proposons de realiser une ressource lexico-semantique basee sur le mo- 
dele des Atlas semantiques et I'utilisation de corpus, mais en mettant en oeuvre 
une analyse morphosyntaxique pour etablir les cliques rassemblant les unites 
lexicales. Cette ressource lexicale constituera de ce fait un descriptif ad hoc du 
contenu du corpus et, a ce titre, un instrument ideal pour en apprehender et 
traiter I'information et pour naviguer semantiquement a travers ses contenus. 
Par ailleurs, la preservation du lien entre les cartographies semantiques et les 
enonees qui ont servi a les realiser donne la possibilite d'aceeder aux exemples 
authentiques d'utilisation d'une unite lexicale donnee dans son sens desire conte- 
nus dans le corpus. L 'analyse morphosyntaxique prealable du corpus permet 
egalement de deduire sa construction syntaxique d'usage, voire un schema de 
sous-categorisation. 

En outre, nous suggerons d'exploiter parallelement des corpus similaires de 
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grande taille et de langues distinctes, a savoir differentes instances linguistiques 
de I'encyclopedie libre Wikipedia, pour creer des ressources comparables dans 
des langues differentes, dont les representations semantiques peuvent etre mises 
en correspondance. La navigation thematique, possible dans chaque corpus indi- 
viduellement, devrait depasser la barriere des langues grace aux correspondances 
de cartographies semantiques de chaque corpus. Ces representations permettent 
en effet d'associer des enonces portant sur un m^me sujet sans distinction de 
langue, car le dictionnaire bilingue assure la traduction pour I'unite lexicale 
recherchee et pour la plupart de ses contextes dans les cartes semantiques, ce 
qui permet de restreindre les textes fournis a I'apparition d'un sens selectionne. 
Et quand le dictionnaire bilingue echoue a fournir une traduction a certaines 
contextes typiques d'une unite lexicale, la navigation thematique interlangue 
reste possible, car les contextes traduits appartenant a la meme tendance de 
sens permettent d'identifier dans une autre langue la tendance de sens corres- 
pondante, et done les bribes de textes qui lui sont liees. Les tests effectues grace 
a un premier prototype sur un ensemble textuel moyen sont encourageants et 
vont dans le sens de notre hypothese. 

Mais au-dela de la perspective de realiser un outil lexical objectif et exhaus- 
tivement representatif du contenu d'un corpus, voire de fournir un instrument 
de navigation textuelle et thematique interlangue a travers les informations pre- 
sentes dans le corpus, cette ressource ouvre plusieurs pistes tant dans I'etude de 
la langue qu'en applications pratiques. En effet, nous projetons de nous pencher 
sur la nature meme de I'unite lexicale et sur son rapport au sens en utilisant pour 
ce faire les contextes typiques et leur distribution dans les cartes semantiques. 
Dans cette perspective, c'est essentiellement I'etude du probleme des expres- 
sions a mots multiples et de leur eventuelle lexicaHsation qui constituera notre 
base de reflexion. Nous pensons egalement pouvoir etablir automatiquement des 
liens de rapport semantique entre unites lexicales, classiques ou inedits, grace 
aux similitudes et divergences de leurs cartes semantiques respectives. 

D'un point de vue plus applicatif, la ressource proposee pent evidemment 
6tre utilisee pour aider a I'elaboration de dictionnaires plus proches de la forme 
traditionnelle de ces ouvrages, ou necessitant certaines des informations que 
notre approche est apte a fournir : un lexique et une diversite semantique re- 
presentatifs du corpus selectionne, un acces direct a une collection d'exemples 
authentiques d'usages des unites lexicales dans chaque sens atteste, une as- 
sociation de chaque sens de toutes les unites avec sa categoric grammatical, 
ainsi qu'avec un ou plusieurs schemas syntaxiques ou de sous-categorisation, 
etc. La relation etablie entre les differents sens des unites lexicales et des enon- 
ces non seulement dans la m&me langue, mais egalement avec des bribes de texte 
dans d'autres langues permet egalement d'envisager I'utilisation des ressources 
de langues differentes pour aider a la redaction de dictionnaires bilingues, ou 
mgme pour constituer une forme de memoire de traduction, ou des expressions 
regroupant une unite lexicale et certains de ses contextes trouveront leur cor- 
respondance dans d'autres langues grace a I'utilisation des cartes semantiques 
et des corpus. 

Comme on pent le voir, les qualites du modele des Atlas semantique ainsi 
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que les apports d'une approche mixte par corpus permettent d'envisager non 
seulement une etude approfondie de la langue, mais aussi des instruments per- 
formants en gestion de rinformation textuelle, mais encore des outils necessaires 
dans des domaines aussi varies que la creation de dictionnaires et la realisation 
de memoires de traduction. 
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